RESUMEN

  1. Presentación del contexto y objetivos
  1. Breve introducción a series de tiempo
  1. Presentación de las series analizadas
  1. Modelos
  1. Metodología y aplicación de los modelos
  1. Comparación de resultados
  1. Conclusión

1. MOTIVACIÓN Y OBJETIVOS

1. MOTIVACIÓN

  • El pronóstico de series de tiempo es clave en múltiples ámbitos

  • Crecimiento exponencial en la cantidad de datos disponibles

  • Los métodos actuales de pronóstico requieren amplios conocimientos, son difíciles de automatizar y/o son demandantes computacionalmente

1. MOTIVACIÓN

Modelos fundacionales preentrenados

  • Capaces de seleccionar de forma automática el mejor ajuste

  • No requieren entrenamiento previo ni conocimientos especializados

  • Basados en arquitecturas transformer

¿Qué tan bien se desempeñan?

1. OBJETIVOS

  • Comparar la precisión, eficiencia y facilidad de pronosticar series de tiempo

    • Modelos estadísticos tradicionales

    • Modelos de aprendizaje automatizado

    • Modelos de aprendizaje profundo

    • Modelos fundacionales preentrenados

  • Definir y aplicar métricas de evaluación

    • MAPE

    • Interval score

  • Reflexionar sobre los criterios de selección de modelos

2. BREVE INTRODUCCIÓN A SERIES DE TIEMPO

2. INTRODUCCIÓN A SERIES DE TIEMPO

Serie de tiempo

Conjunto de observaciones \(\{z_1, z_2, ..., z_t, ..., z_n\}\) cuantitativas ordenadas en el tiempo.

2. INTRODUCCIÓN A SERIES DE TIEMPO


Componentes de una serie


Tendencia

Estacionalidad

Residuos

2. INTRODUCCIÓN A SERIES DE TIEMPO

Tendencia

2. INTRODUCCIÓN A SERIES DE TIEMPO

Estacionalidad

2. INTRODUCCIÓN A SERIES DE TIEMPO

Residuos

2. INTRODUCCIÓN A SERIES DE TIEMPO

Estacionariedad débil

  • Media constante en el tiempo

  • Variancia constante en el tiempo

  • Correlación entre observaciones dependiente únicamente de la distancia en el tiempo

2. INTRODUCCIÓN A SERIES DE TIEMPO

Estacionariedad

  • Media constante en el tiempo

  • Variancia constante en el tiempo

  • Correlación entre observaciones dependiente únicamente de la distancia en el tiempo

3. PRESENTACIÓN DE LAS SERIES ANALIZADAS

3. PRESENTACIÓN DE LAS SERIES ANALIZADAS

  • Número de atenciones en guardia por patologías respiratorias en el hospital en el Hospital de Niños Víctor J. Vilela de la ciudad de Rosario.

  • Número trabajadores asalariados en el rubro de la enseñanza privada en Argentina.

  • Temperatura (Cº) por hora en la ciudad de Rosario.

3. PRESENTACIÓN DE LAS SERIES ANALIZADAS

Atenciones en guardia

3. PRESENTACIÓN DE LAS SERIES ANALIZADAS

Trabajadores asalariados

3. PRESENTACIÓN DE LAS SERIES ANALIZADAS

Temperaturas

3. PRESENTACIÓN DE LAS SERIES ANALIZADAS



3. PRESENTACIÓN DE LAS SERIES ANALIZADAS

Temperaturas

4.1 MODELOS: Modelos estadísticos tradicionales

4.1 Modelos estadísticos tradicionales

ARIMA(p,d,q)

\[ \psi_p(B)(1-B)^dz_t = \theta_0 + \theta_q(B)\alpha_t \]

4.1 Modelos estadísticos tradicionales

AutoRegressive Integrated Moving Average

\[ \psi_p(B)(1-B)^dz_t = \theta_0 + \theta_q(B)\alpha_t \]

Invertibilidad

Una serie es invertible si se puede escribir cada observación como una función de las observaciones pasadas más un error aleatorio.

4.1 Modelos estadísticos tradicionales

Funciones de autocorrelación y autocorrelación parcial

Ejemplo proceso AR(1)

Ejemplo proceso MA(1)

4.1 Modelos estadísticos tradicionales

Limitaciones

Los modelos ARIMA no tienen en cuenta los posibles patrones estacionales de una serie

Modelo \(SARIMA(p,d,q)(P,D,Q)_s\)

4.1 Modelos estadísticos tradicionales

Propiedades de un buen modelo \(SARIMA\):

  • Los residuos del modelo se comportan como ruido blanco
- Incorrelacionados

- Distribuídos aproximadamente de forma normal

- Variancia y media constantes
  • Es admisible
  • Es parsimonioso

4.2 MODELOS: Modelos de aprendizaje automático

4.2 Modelos de aprendizaje automático

Aprendizaje automatizado (machine learning)

Rama de la inteligencia artificial que permite a las computadoras aprender de los datos y realizar tareas de forma autónoma.

4.2 Modelos de aprendizaje automático

Métodos de ensamblaje

Buscan mejorar la robustez y precisión de las predicciones combinando los resultados de varios estimadores base.

4.2 Modelos de aprendizaje automático

Diferencias entre eXtreme Gradient Boosting (XGBoost) y Light Gradient-Boosting Machine (LightGBM)

XGBoost LightGBM
Método de partición Exacto GOSS
Crecimiento del árbol Por nivel Por hojas
Tratamiento de características correlacionadas Ninguno EFB

4.2 Modelos de aprendizaje automático

Problemas

No generan pronósticos probabilísticos de forma directa

Ensemble Batch Prediction Intervals (EnbPI)

  1. Seleccionar un modelo por ensamblado.

  2. Generar B muestras bootstrap por bloques.

  3. Ajustar un modelo sobre cada una de las B muestras.

  4. Calcular el residuo de cada observación utilizando aquellos modelos que no la incluyeron.

  5. Obtener las predicciones puntuales promediando los resultados de los B modelos.

  6. Construir los intervalos de predicción usando los cuantiles empíricos de los residuos.

4.3 MODELOS: Modelos de aprendizaje profundo

4.3 Modelos de aprendizaje profundo

Aprendizaje profundo (deep learning)

Conjunto de algoritmos que modelan niveles altos de abstracción usando múltiples capas de procesamiento, con complejas estructuras o compuestas de varias transformaciones no lineales.

4.3 Modelos de aprendizaje profundo

Tipos de redes neuronales

  • Feedforward Neural Networks (FNN)

  • Recurrent Neural Networks (RNN)

  • Convolutional Neural Networks (CNN)

  • Entre otras…

4.3 Modelos de aprendizaje profundo

Limitaciones de las RNNs

Tienen dificultades para capturar dependencias de largo plazo. Causas: Desvanecimiento o explosión del gradiente.

4.3 Modelos de aprendizaje profundo

Puerta de guardado

Se encarga de decidir que proporción de la información a largo plazo mantener en la neurona de memoria en cada iteración.

4.3 Modelos de aprendizaje profundo

Puerta de entrada

Controla que información añadir a la neurona de memoria. Propone un nuevo valor para la información a largo plazo y decide que proporción sumar al valor actual.

4.3 Modelos de aprendizaje profundo

Puerta de salida

Se encarga de extraer la información más importante del estado actual de la neurona para usar como salida o valor para la próxima iteración de la red.

4.4 MODELOS: Modelos fundacionales preentrenados

4.4 Modelos fundacionales preentrenados

Fundacional: Entrenado en grandes conjuntos de datos

Preentrenado: Los parámetros del modelo fueron previamente calculados

Modelos basados en arquitecturas transformer

Originalmente creados con el propósito de generar texto:

  • ChatGPT

  • BERT

  • Claude

Para pronosticar series de tiempo:

  • TimeGPT

  • Chronos

4.4 Modelos fundacionales preentrenados

Modelos fundacionales preentrenados

  • Capaces de seleccionar de forma automática el mejor ajuste

  • No requieren entrenamiento previo ni conocimientos especializados

  • Basados en arquitecturas transformer

¿Qué tan bien se desempeñan?

4.4 Modelos fundacionales preentrenados

Modelos fundacionales preentrenados

  • Capaces de seleccionar de forma automática el mejor ajuste

  • No requieren entrenamiento previo ni conocimientos especializados

  • Basados en arquitecturas transformer

¿Qué tan bien se desempeñan?

4.4 Modelos fundacionales preentrenados

Atención

Mecanismo que captura dependencias y relaciones en la secuencias de valores que se alimentan al modelo, logrando poner en contexto a cada observación. Presentado en la publicación Attention is all you need de Google en 2017.

\[ \text{Atencion}(Q,K,V) = softmax(\frac{QK^T}{\sqrt{d_k}})V \]

\(\vec E\): Vector de entrada

\(W_Q\): Matriz de características (\(\vec E \times W_Q = \vec Q\))

\(W_K\): Matriz de relaciones (\(\vec E \times W_K = \vec K\))

\(W_V\): Matriz de valores (\(\vec E \times W_V = \vec V\))

Matrices iniciadas aleatoriamente y ajustadas en el preentrenado

4.4 Modelos fundacionales preentrenados


4.4 Modelos fundacionales preentrenados

4.4 Modelos fundacionales preentrenados

Representación vectorial y codificación posicional

Se tokenizan los datos de entrada (\(\vec E\)).

Se suma a \(\vec E\) un vector con patrones específicos que integran al vector de entrada la información posicional del token.

4.4 Modelos fundacionales preentrenados

Suma y normalizado

Las conexiones residuales se añaden sobre el vector de entrada en la salida de cada capa.

La normalización estabiliza el entrenamiento y mejora la convergencia.

4.4 Modelos fundacionales preentrenados

Red neuronal convolucional (CNN)

Utilizada para descubrir dependencias locales y patrones de corto plazo.

4.4 Modelos fundacionales preentrenados

4.4 Modelos fundacionales preentrenados

Representación vectorial (Decodificador)

La entrada del decodificador son los tokens desplazados hacia la derecha.

4.4 Modelos fundacionales preentrenados

Enmascaramiento

Antes de la aplicación de softmax se reemplazan todos los valores debajo de la diagonal principal de la matriz \(QK\) por \(-\infty\).

4.4 Modelos fundacionales preentrenados

Atención multicabezal

Se usan las matrices \(K\) y \(V\) que da como salida el codificador. \(Q\) es la salida de la capa de atención multicabezal enmascarada.

4.4 Modelos fundacionales preentrenados

Conexión lineal

Feed Forward Network completamente conectada que traduce las representaciones de atributos aprendidos en predicciones.